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基于 频繁 主题 集 偏好 的 学 术 论 文 推荐 算 ; 
F 冉 ， 林 法 


(武汉 理工 大 学 计算 机 科学 与 技术 学 院 , AXR 430063) 


摘 E: 针对 学 术 论 文 推荐 中 项 目 冷 启动 问题 ， 提 出 了 一 种 基于 频繁 主题 集 偏好 的 协同 主题 回归 模型 。 该 算法 考虑 到 
用 户 在 选择 学 术 论文 时 对 研究 热点 的 偏好 ， 使 用 频繁 主题 集 代表 研究 热点 ， 将 用 户 对 研究 热点 的 偏好 表示 成 用 户 对 频 
繁 主题 集 的 人 偏好。 首先， 通过 潜在 狄 利克 雷 分 布 主题 模型 挖掘 得 到 论文 一 主题 概率 分 布 和 矩阵 ， 并 筛选 出 论文 中 概 举 较 
高 的 主题 ; 然后 ， 挖 据 出 频繁 出 现 的 主题 集合 ， 并 得 到 论文 -频繁 主题 集 矩 阵 ; 最 后 ， 在 预测 未 知 评分 时 融入 用 户 对 频 
繁 主题 集 的 偏好 。 在 CiteULike 数据 集 上 的 实验 表明 ， 相 比 于 短 阵 分 解 模 型 和 协同 主题 回归 模型 ， 该 算法 在 召回 率 、 
准确 率 和 RMSE 三 个 指标 上 都 有 所 提升 。 
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Academic paper recommendation algorithm based on frequent topic sets preference 
Li Ran, Lin Hong 
(College of computer Science & Technology, Wuhan University of Technology, Wuhan 430063, China) 


Abstract: This paper proposed a collaborative topic regression model based on the preference for frequent topic sets to address 


the item-cold-start problem in academic paper recommendation. The algorithm takes into account the user's preference for 


research hotspots when selecting academic papers, and uses frequent topic sets to represent research hotspots. So, user's 
je preference for research hotspots is expressed as the user's preference for frequent topic sets. Firstly, the papers-topic probability 
: distribution matrix is obtained through LDA algorithm and filter out the topics with higher probability in the paper. Then, the 
algorithm mines the frequently-occurring topic sets and gets the relationships between papers and frequent topic sets. Finally, 
the user's preference for frequent topic sets is used for the prediction of unknown scores. Experiments on CiteULike datasets 
show that the algorithm improves the recall, accuracy and RMSE over the matrix factorization model and the collaborative topic 
regression model. 
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的 语义 信息 ， 从 而 发 现 文 档 潜 在 的 主题 特征 ， 通 过 文档 间 主 题 
的 相似 度 给 用 户 基 于 内 容 的 推荐 "。 此 外 , 大 量 研究 工作 也 被 

学 术 论 文 推荐 是 推荐 系统 的 一 个 应 用 方向 ， 结 合 被 推荐 物 “中 在 如 何 将 概率 矩阵 分 解 模型 (probabilistic matrix factorization, 
品 〈 学 术 论 文 ) 的 特点 ， 基 于 内 容 、 协 同 过 滤 等 在 电子 商务 领 ” PMF)" 更 好 的 应 用 到 论文 推荐 中 。Wang 等 "将 PMF 和 基于 内 
域 广泛 使 用 的 推荐 算法 在 学 术 论 文 推荐 中 也 取得 了 一 定 效果 。 容 的 推荐 相 结合 ， 提 出 协同 主题 回归 模型 (collaborative topic 
在 基于 内 容 的 论文 推荐 的 技术 中 ,常用 的 是 利用 TF-IDF 77 regression, CTR)， 通 过 潜在 狄 利克 雷 分 布 主 题 模 型 (latent 
法 将 文档 表示 成 以 关键 词 为 维度 的 特征 向 量 "， 并 由 特征 向 量 Dirichlet allocation, LDA) ^x PMF 的 项 目 潜在 因子 特征 向 量 进 
计算 得 到 文档 间 的 相似 度 ， 然 后 基于 用 户 的 历史 阅读 记录 进行 。” 行 增强 。 协 同 深度 学 习 的 分 层 贝 叶 斯 模型 "对 内 容 信 息 进 行 深 
论文 的 推荐 ”。 但 TF-IDF 方法 只 能 统计 文档 中 单词 的 词 频 信 ” 度 表示 学 习 ， 并 对 反馈 矩阵 进行 协同 过 滤 ， 显 著 提高 了 已 有 的 
息 ， 无 法 捕捉 文档 内 部 以 及 文档 间 的 统计 特征 ， 也 不 能 确定 文 。” 技术 水 平 。 Lu 等 人 "提出 作者 一 会 议 一 时 间 一 主题 模型 构建 用 
档 的 语义 特征 ， 从 而 只 能 向 用 户 推荐 表面 内 容 相似 的 文章 。 随 户 的 主题 特征 ， 结 合 LDA 构建 的 论文 的 主题 特征 ， 分 别 增强 
着 主题 模型 的 提出 及 其 在 文本 挖掘 中 发 挥 的 重要 作用 ， 逐 渐 有 PMF 中 的 用 户 潜在 因子 特征 向 量 和 项 目 潜在 因子 特征 向 量 。 除 
人 将 主题 模型 应 用 于 推荐 系统 ”。 主 题 模型 可 以 捕 提 到 文档 内 “此 ， 还 有 一 些 推荐 算法 也 将 重点 集中 在 挖掘 更 多 种 类 的 信息 来 
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录用 稿 
丰富 用 户 和 论文 的 特征 ”。 顺 着 这 一 研究 思路 , 本 文 也 对 如 何 


更 好 的 构建 论文 特征 向 量 进行 了 探究 。 

用 户 在 某 个 研究 方向 下 做 研究 时 ， 首 先 需要 阅读 相关 领域 
下 的 核心 技术 论文 ， 以 便 了 解 该 方向 的 主要 研究 内 容 和 关键 技 
As 其 次 ， 阅 读 新 发 表 的 论文 对 用 户 也 是 至 关 重 要 的 ， 可 以 帮 
助 用 户 紧 跟 学 科 的 发 展 ， 并 开阔 眼界 ， 同 时 ， 用 户 对 包含 热点 
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hz, ; 


d) 从 词语 的 多 项 式 分 布 。 中 采样 最 终生 成 词语 0; 


eo) 重复 上 述 过 程 ， 就 产生 了 文档 i 。 
该 模型 的 输入 是 语料库 的 词 袋 模型 ， 输 出 是 两 个 多 项 式 分 


主题 的 论文 的 关注 度 往往 更 高 。 核 心 论文 往往 意味 着 被 该 方向 
下 的 很 多 人 阅读 过 ， 因 此 在 推荐 核心 论文 时 ， 采 用 概率 矩阵 分 
解 模型 向 用 户 推荐 同 领域 下 其 他 用 户 阅 读 的 论文 ， 可 以 使 其 他 
用 户 的 观点 发 挥 重 要 作用 ， 推 荐 效果 良好 。 但 对 于 发 表 不 久 ， 
还 没有 被 阅读 过 的 论文 ， 概 率 和 矩阵 分 解 模型 则 不 能 发 挥 作用 
即 存在 项 目 冷 启动 的 问题 ， 因 此 需要 对 论文 内 容 进行 分 析 ， 以 
便 将 其 推荐 给 需要 的 用 户 。 上 述 提 到 的 CTR 及 系列 论文 5 将 


布 的 参数 , 一 个 是 “文档 一 主题 ”分 布 0, 一 个 是 “主题 一 词 ” 
4i Ó 。 通 过 学 习 这 两 个 参数 ， 可 以 获得 每 篇 论文 所 涵盖 的 主 
题 比例 等 信息 。 本 文采 用 Gibbs 抽样 法 对 上 述 参数 进行 推 新 。 
1.2 ”频繁 项 集 挖掘 

频繁 项 集 是 指 那些 经 常 一 起 出 现 的 物品 集合 ,其 中 “频繁 ” 
是 由 设 定 的 阔 值 〈 即 最 小 支持 度 ) 来 衡量 的 ， 一 个 项 集 的 支持 
度 被 定义 为 数据 集中 包含 该 项 集 的 记录 所 占 的 比例 。 

Apriori 算法 王 是 一 种 挖掘 关联 规则 的 频繁 项 集 的 经 典 算 
法 , 使 用 逐 层 搜索 的 迭代 方法 来 产生 频繁 项 集 , 即 通过 (上 一 ]) 


基于 内 容 的 推荐 和 概率 矩阵 分 解 模型 相 结 合 ， 一 定 程度 上 缓解 
了 概率 矩阵 分 解 模型 的 冷 启动 问题 .但 是 CTR 在 发 掘 研究 热点 
方面 的 能 力 不 够 ， 尤 其 是 对 于 新 发 表 的 论文 ， 基 本 上 依赖 于 基 
于 内 容 的 推荐 ， 而 不 能 体现 论文 中 研究 热点 的 价值 。 


HE 
鉴于 上 述 问题 ， 本 文 提出 了 基于 频繁 主题 集 偏好 的 协同 主 


题 回 归 模型 ， 在 预测 未 知 评分 时 ， 对 包含 频繁 主题 集 的 论文 给 


予 一 定 程度 的 偏重 ， 频 繁 出 现 的 主题 集合 通常 代表 学 术 研究 的 
热点 ， 从 而 凸显 包含 研究 热点 的 学 术 论 文 的 价值 。 该 模型 首先 
对 语料库 进行 建 模 处 理 ， 得 到 论文 在 主题 上 的 概率 分 布 ， 从 而 
挖掘 出 频繁 出 现 的 主题 集合 ， 最 后 在 协同 主题 回归 模型 中 融入 


频繁 主题 集 对 推荐 结果 的 影响 。 
1 ”相关 工作 


11 论文 主题 挖掘 
本 文 使 用 LDA 主题 模型 对 实验 数据 集 进行 处 理 ， 生 成 论 
文 -主题 概率 分 布 矩阵 。LDA 是 一 个 语料库 的 生成 模型 , 它 的 基 
本 思想 是 文档 被 表现 为 隐 含 主题 的 随机 混合 "”。 对 于 语料库 中 
的 每 篇 文档 ，LDA 定义 了 如 下 生成 过 程 : 
a) Dirichlet 分 布 a 中 取样 生成 文档 的 主题 分 布 6 ; 
b) 从 主题 的 多 项 式 分 布 9 中 取样 生成 文档 ;第 j 个 词 的 主 


ij? 


E Dirichlet 分 布 8 中 取样 生成 主题 z ,对 应 的 词语 分 布 


un 


项 频繁 集 得 到 项 频繁 集 ， 共 包含 两 个 步骤 。 首 先 ， 自 连接 获 
取 候 选集 ， 第 一 轮 的 候选 集 就 是 数据 集中 的 项 ， 而 其 他 轮 次 的 
候选 集 则 是 由 前 一 轮 次 频繁 集 自 连接 得 到 。 然 后 ， 对 候选 集 进 
行 前 枝 ， 将 候选 集中 支持 度 小 于 最 小 支持 度 的 项 和 其 子 集 包 含 
iE SE SER DE pu. ffi Spp S n 项 外 

本 文 使 用 Apriori 算法 对 LDA 模型 产生 的 文档 -主题 分 布 
进行 频繁 项 集 挖掘 ， 得 到 经 常 共同 出 现 的 主题 集合 ， 和 各 频繁 
主题 集合 在 每 篇 论文 中 的 分 布 情况 。 


2 ”基于 频繁 主题 集 偏好 的 推荐 模型 


2.1 频繁 主题 集 偏 好 

LDA 主题 模型 的 基本 思想 表明 ， 每 篇 论文 都 有 一 个 或 多 
个 主题 ， 即 每 篇 论文 都 对 应 一 个 主题 集 。 因 此 由 LDA 模型 得 
到 的 论文 -主题 概率 分 布 算 阵 ， 如 图 1a)， 通 过 筛选 论文 中 概 
率 值 较 高 的 主题 ， 可 将 矩阵 表示 成 图 1(b) 所 示 的 形式 ， 每 一 行 
中 值 为 1 所 对 应 的 主题 的 集合 即 该 论文 所 包含 的 主题 集 。 显 
然 ， 同 一 方向 下 的 论文 包含 相同 或 相近 的 主题 集 ， 并 且 对 于 一 
个 特定 的 主题 集 在 不 同 的 论文 中 出 现 的 次 数 越 多 ， 代 表 在 该 研 
究 方 向 下 的 关注 度 越 高 。 
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(b) 论文 -主题 矩阵 
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图 1 


于 上 述 分 析 ， 频 繁 主题 集 ， 
文中 的 主题 集合 ， 


热点 。 包 含 研究 热点 的 论文 对 用 


现在 同一 篇 学 术 论 
上 反映 了 某 个 研究 领域 下 的 研究 


EFEK, X 分 论文 


之 间 在 热度 


MESSA 


上 的 差 另 


E 荐 更 有 价值 的 论文 ， 因 此 
在 构建 论文 特征 向 量 时 ， 应 考虑 到 频繁 主题 集 的 影响 。 尤 其 对 
于 阅读 量 较 少 的 论文 ，CTR 等 算法 
将 其 推荐 给 阅读 过 可 
频繁 主题 集 的 偏好 ， 能 进一步 的 提高 
2.0 ”算法 模型 表示 


依赖 于 论文 的 潜在 主题 ， 
， 在 此 基础 上 考虑 用 户 对 
E 荐 效果 。 


E 阵 分 解 模型 是 扒 


种 经 典 的 推荐 模型 ， 在 


学 术 论文 
题 空 间 上 的 用 户 、 
融合 相似 性 、 


寺 征 矩阵 ， 提 高 推荐 效果 。CTR 便 是 基于 


Pe j> 


E 荐 中 也 有 广泛 应 用 


过 在 算法 


] 户 历史 评分 矩阵 分 解 成 
E 和 矩阵。 该 算法 具有 高 扩展 性 ， 可 
社交 网 络 等 信息 约束 用 户 、 论 


该 模型 融入 了 论文 


TI 


j 户 工 对 论文 J rosso 


容 信息 ， 将 


E. u 和 ?7 分 别 代表 


过 LDA 主题 模型 挖掘 得 


Psy Ry 作 了 如 下 定义 。 


JE i Rie j 的 特征 向 量 。0; 是 通 
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的 高 斯 分 布 ，} 
的 影响 。 
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E 题 上 的 概率 分 布 向 量 。 
(1) 
(2) 


定义 为 服从 均值 为 0 的 高 斯 分 布 ， 如 式 


E 向 量 的 定义 如 式 (2) 所 示 ，6j 为 服从 均值 为 0 


于 平衡 用 广 


u, ~ N(0|c,'1) 


E~ X(olc27) 


WA ET 2p 
咎 。 因 此 ， 本 文 提出 ] 


模型 ， 在 CTR H 


评分 记录 和 论文 内 容 对 论文 特征 向 


(3) 


(4) 


] 户 对 论文 的 选择 上 有 一 
于 频繁 主题 集 偏好 的 协同 主题 


Ph 融 入 频繁 主题 集 的 4 


荐 效果 。 模 型 示意 医 


局 影响 因子 ， 提 


数据 表示 


图 2 模型 示意 图 


rji T, 2(0/1,0/1..,0/1) scie xc 了 包含 频繁 主题 


集 的 情况 ，T 的 第 5 个 值 取 值 为 1， 表 示 论 文 了 中 含有 第 $ 个 


频繁 主题 集 。 
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RT, 的 产生 过 程 如 下 ; 


引 通 过 LDA 主题 模型 得 到 论文 -主题 概率 分 布 矩 阵 0 ; 


b) 筛 选 论文 中 概率 值 较 高 的 主题 ， 得 到 每 篇 论文 包含 的 主 
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0) 使 用 Apriori 算法 挖掘 出 频繁 出 现 的 主题 集合 , 同时 产生 


矩阵 了 。 


为 在 CTR 模型 中 融入 频繁 主题 集 的 全 
用 户 对 论文 的 预测 评分 重新 定义 为 


可 
q 
E 
EEI 


因子 , 本 文 将 


T 
gluv, + T [0 
Rj- : (5) 
uy, [20 
g(u;v; uU i 


R 表示 预测 评分 ，u 和 vj; 的 定义 同 式 (3)@); 


g(x) -1/ (1+ exp( 一 0) 为 逻辑 函数 , 将 预测 评分 映射 到 [0,1] 


xig, P (B, B... P... P, ) 是 频繁 主题 集 的 影响 因子 向 量 ， 


已 表示 频繁 主题 集 5 在 用 户 对 论文 评分 时 产生 的 影响 值 ，P 


是 频繁 主题 集 的 维度 ;表示 论文 j 中 包含 频繁 主题 集 的 个 


数 , 即 向 量 克 中 1 的 个 数 。 当 论文 了 中 不 含 任何 频繁 主题 集 时 ， 


将 频繁 主题 集 的 影响 值 定义 为 所 有 频繁 主题 集 的 影响 值 的 平均 
值 , 向 量 了 表示 单位 向 量 。 并 且 , 假定 向 量 P 和 向 量 W 和 V 
样 服从 均值 为 0 的 高 斯 分 布 : 


YE 


p(P|c,)- N(P|0.o1) (6) 


则 可 推导 出 损失 函数 的 定义 ， 如 式 (7) 所 示 。 


RR, 是 用 户 i 对 论文 j 的 真实 评分 ， /为 指示 函数 , 如 果 用 


mj 对 论文 有 过 操作 ， 则 返回 1， 和 否则 返回 0 4 4M4, 


分 别 为 本 VA P 的 正则 化 参数 。 


通过 对 向 量 U, 、7 和 到 实施 随机 梯度 下 降 法 ， 如 式 (8) 所 
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示 ， 可 以 求解 使 损失 函数 取 最 小 值 的 用 户 、 论 文 潜在 主题 向 量 。 测 未 知 评分 。 
以 及 频繁 主题 集 的 影响 因子 向 量 P 的 值 ， 从 而 通过 式 (1) 预 


J yy (R -R ] «54 Yu 3l C 一 0 J (v 一 0 AS T 7 
2 j (Ay TA 2 全 S ep] /7 三 pP P (7) 


i=1 j=l 


OF d ry 1 T P'T, 
(ns E yt : L v; Aus, 


了 


T 
A CL Ce n). (8) 
j i= 


j 
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3 ”实验 结果 与 分 析 recall @ m = EE M (10) 
TP + FN 

3.1 实验 方案 ni TP 

ot : : : "M" precision @ m = ———— (11) 

本 文采 用 由 CiteULike 网 站 (http:/wwwi.citeulike.org) 提 供 的 TP + FP 

数据 集 (http:/www.citeulike.org/faq/data.adp)。 该 数据 集 包 括 从 TP 是 推荐 列表 中 用 户 喜欢 的 论文 数量 ， FN 是 没有 推荐 
2004 年 到 2010 年 的 16980 篇 论文 和 5551 个 用 户 , 每 个 用 户 都 。 给 用 户 但 用 户 喜 欢 的 论文 的 数量 ， FP 是 推荐 列表 中 用 户 不 喜 


有 自己 的 论文 库 ， 其 中 记录 着 用 户 浏览 过 的 论文 ， 共 包含 欢 的 论文 的 数量 。 推 荐 算法 的 召回 率 定义 为 所 有 用 户 的 推荐 召 
204986 对 用 户 -论文 浏览 记录 。 实 验 过 程 中 ， 基 于 16980 篇 论 率 的 平均 值 ， 推 荐 算法 的 准确 率 定义 为 所 有 用 户 的 推荐 准确 
文 依次 采用 LDA 主题 模型 算法 和 Apriori 算法 ， 挖 气 出 频繁 出 。 率 的 平均 值 。 
现 的 主题 集合 。 并 且 ， 将 每 篇 论文 表示 为 以 频繁 主题 集合 为 维 此 外 ， 召 回 率 和 准确 率 会 出 现 矛 盾 的 情况 ， 所 以 经 常 采用 
BE gi. KREE 0 MEET ， 作 为 预测 未 知 评分 时 的 F-measure 方法 去 综合 考虑 两 者 。F-measure 是 召回 率 和 准确 率 
已 知 参数 。 的 加 权 调 和 平均 ， 特 别 地 ， 当 w =1 时 ， 就 是 最 常见 的 Ff1。 本 

按照 80% 和 20% 的 比例 将 用 户 -论文 浏览 记录 划分 为 训练 ARH F1 来 衡量 推荐 效果 。 
集 和 测试 集 ， 进 行 如 下 实验 : 


n 


Y 


(a +1)- precision- recall 


i E f F — Measure = 7 = (12) 
a) 分 析 频 繁 主题 集 的 数量 、 参数 A, 对 基于 频繁 主题 集 偏好 æ` (precision + recall) 
的 协同 主题 回归 模型 的 影响 ， 以 确定 合理 的 参数 值 ; 3.3 ”实验 结果 
b) 对 比 本 文 模型 和 PMF、CTR 的 推荐 效果 。 3 


在 挖掘 频繁 出 现 的 主题 集 阶 段 ， 当 最 小 支持 度 设置 为 不 同 
的 值 时 ， 得 到 的 频繁 主题 集 的 数量 也 有 所 不 同 ， 反 映 了 当前 论 
文集 中 的 研究 热点 的 分 布 。 设 定 LDA 模型 的 主题 个 数 为 200， 
最 小 支持 度 分 别 取 0.0014, 0.00125, 0.00118, 0.0012, 0.00105, 


3.2 评测 标准 
在 评分 预测 系统 中 常 采用 均 方 根 误差 (root mean squared 
error, RMSE) 作为 度量 标准 ，RMSE 越 小 ， 则 推荐 准确 度 就 越 
高 。RMSE 的 求解 公式 如 下 ， 其 中 Test 是 测试 集合 。 


可 找 出 满足 这 些 最 小 支持 度 频 繁 出 现 的 主题 集合 的 数量 分 别 是 

> (r-r; 54, 81, 97, 118, 159. X 1 给 出 了 在 推荐 列表 长 度 不 同 的 

$3 ijs" ——— 9 (9) 情况 下 ， 模 型 的 平均 召回 率 随 频繁 主题 集 数量 的 变化 而 呈现 的 
[Test 不 同 值 。RMSE 的 变化 趋势 ， 如 图 (3) 所 示 。 实 验 中 的 其 他 参数 


除 此 之 外 ， 推 荐 系统 的 目的 是 向 用 户 推荐 用 户 可 能 感 兴趣 的 设置 分 别 为 4 20.1. A, =0.1、1, =1. 
的 论文 ， 因 此 ， 本 文 在 预测 用 户 对 论文 的 评分 之 后 ， 对 用 户 预 
测评 分 进行 排序 ， 选 取 评 分 分 值 大 且 没 有 被 用 户 操作 过 的 论文 
推荐 给 用 户 ， 并 采用 召回 率 和 准确 率 来 衡量 推荐 效果 。 假 设 向 推荐 列表 长 度 
用 户 推荐 预测 评分 最 高 的 m 篇 论文 ， 对 于 特定 用 户 ， 其 推荐 的 
召回 率 和 准确 率 定义 为 


N 


表 1 频繁 主题 集 数量 不 同时 召回 率 的 对 比 


P=54 P=81 P=97 P=118 P=159 


k=200 0.7743 0.7901 0.7851 0.7706 0.7538 


k=150 0.6909 0.7087 0.6912 0.6895 0.6701 
k=100 0.5855 0.5978 0.5782 0.5768 0.5649 
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dioi 


录用 稿 
k=50 0.4241 0.4336 0.4188 0.4178 0.4068 
k=10 0.1663 0.1757 0.1658 0.1654 0.166 
oh 0.6435 
06 
058 
)56 
054 0.5475 
Ne 
p-54 p-81 p-97 p-118 ^ p-159 
图 3 p 对 RMSE 的 影响 
频繁 主题 集 的 数量 越 多 ，RMSE 先 随 之 减 小 ， 召 回 率 也 相 
应 上 升 ， 算 法 性 能 提高 ， 但 频繁 主题 集 的 数量 超过 一 定 程度 ， 
荐 效果 有 所 降低 。 实 验 结果 表明 ， 在 挖掘 频繁 主题 集 时 ， 设 


可 以 使 本 文 算法 取 
3.3.2 正则 


得 最 优 的 推 


合理 的 最 小 支持 度 ， 获 得 与 研究 热点 相对 应 的 频繁 主题 集 ， 
荐 效果 。 
比 参数 A, 对 推荐 效果 的 影响 


式 (7) 中 的 参数 4 越 小 , 在 预测 未 知 评分 时 ,用 
的 比重 越 大 。 为 探究 频繁 主题 外 
4 .的 设置 同上 节 ， 选 取 不 同 的 4 来 衡量 1 对 
实验 结果 表明 , 当 4 =1 时 ,本文 算 法 的 召回 


题 集 的 偏好 所 占 
正则 化 参数 1 > 
算法 性 能 的 影响 。 


户 对 频繁 主 


对 评分 的 影响 ， 


率 达 到 最 优 ，RMSE 的 值 也 较 小 。 
3.3.3 推荐 算法 比较 
本 文 模型 由 原始 的 PMF 模型 扩展 而 来 ， 并 借鉴 CTR 的 思 
想 ， 与 PMF 和 CTR 模型 对 比 ， 能 够 直接 体现 出 本 文 模型 在 召 
可 率 、 准 确 率 和 RMSE 等 基准 上 的 提高 .因此 在 本 文 的 实验 中 ， 
TE E t 
通过 实验 ， 分 别 得 到 了 使 三 种 模型 达到 最 优 效 果 的 参数 设 


置 ， 三 种 模型 的 特 4 


征 空间 维 


度 均 为 200，PMF 和 CTR 中 


À, — A, =0.01, 本 文 模型 中 — A, 20.1. 4, =1 ,在 此 基础 


zs 设 定 推 
比 三 种 模型 在 召 


nu 


率 、 


荐 列表 长 度 k 分 别 取 {200，150， 
准确 率 和 RMSE 上 的 效果 。 表 2 


100，50，10}， 对 


展示 了 


yE% 


的 实验 结果 数据 ， 


图 4 展现 了 三 种 模型 在 


荐 效果 上 的 对 


比 。 


实验 结果 表明 ， 在 1 
准确 率 和 Fl 都 明显 优 于 PMF F 


降低 。 并 且 ， 论 文 


E 荐 列表 长 度 不 同时 ， 本 文 模型 的 召 
I CTR, RMSE 的 值 也 有 所 
一 频繁 主题 集 矩 阵 T 可 以 离线 计算 ， 因 此 本 


n 


文 模型 以 较 小 的 时 间 开 销 代 价 ， 获 取 了 推荐 效果 的 提升 。 


—$— PMF 0- CTR e IX 8 3E 


K-10 Kz50 K-100 


(a) 三 种 模型 的 召 匠 


对 比 


inaXiv 合 IERI, 
E a a apa S d QOX VET 论文 推荐 
—$9— PMF -i- CTR —A—- 本 文 模型 
0.05 
0.04 
0.02 
01 
i 
Kz10 K=50 K=100 K=150 K=200 
(b) 三 种 模型 的 准确 率 对 比 
一 9 一 PMF -Mil- CTR 一 太一 7 X 83 
0.10 
0.09 
0.08 
i 
0.04 
0.03 
0.02 
0.01 
K=10 K=50 K=100 K=150 K=200 
(O 三 种 模型 的 综合 测度 对 比 
图 4 三 种 算法 的 性 能 对 比 
A2 三 种 算法 的 性 能 对 比 
指标 算法 k=200  k-150  k-100 k=50 k=10 
PMF 0.7151 0.6426 0.5475 0.4078 0.1673 
CTR 0.7511 0.6701 0.5685 0.4171 0.1725 
召回 率 
本 文 
0.7901 0.7087 0.5978 0.4336 0.1757 
模型 
PMF 0.0142 0.0168 0.0213 0.0314 0.0579 
CTR 0.0149 0.0176 0.0221 0.0325 0.0591 
准确 率 . 
AX 
0.0158 0.0188 0.0235 0.0342 0.0637 
模型 
PMF 0.6665 
CTR 0.622 
RMSE 
本 文 
0.5475 
模型 
4 ”结束 语 
本 文 考 虑 到 频繁 主题 集 在 用 户 选择 论文 时 的 影响 ， 提 出 基 
于 频繁 主题 集 偏好 的 协同 主题 回归 模型 ， 力 求 帮助 用 户 找 到 更 
有 价值 的 学 术 论 文 。 在 真实 数据 集 上 的 实验 证 明 ， 基 于 频繁 主 
题 集 偏好 的 协同 主题 回归 模型 ， 对 比 PMF 和 CTR 模型 ， 在 召 
可 率 和 准确 率 上 都 有 一 定 的 提高 
由 于 用 户 个 性 化 的 需求 ， 频 繁 主题 集 的 影响 值 针对 不 同 用 
户 可 能 不 同 ， 因 此 构建 用 户 敏感 的 频繁 主题 集 影响 向 量 是 下 一 
步 的 研究 重点 。 
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